2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

Update: 2025-10-06

Description

本期的 15 篇论文如下：

[00:28 ] 🧠 Apriel-1.5-15b-Thinker（Apriel-1.5-15B-Thinker：以小博大实现前沿多模态推理的15B开源模型）

[01:04 ] 🚀 Efficient Multi-modal Large Language Models via Progressive Consistency Distillation（基于渐进一致性蒸馏的高效多模态大模型）

[01:42 ] 🧩 Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition（组合式策略！利用测试时段分布级组合提升基于扩散或流的机器人策略性能）

[02:19 ] 🪞 Self-Improvement in Multimodal Large Language Models: A Survey（多模态大语言模型自我提升综述）

[02:59 ] 🧬 Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents（你的智能体可能误入歧途：自演化大模型智能体中的涌现风险）

[03:38 ] 📊 CoDA: Agentic Systems for Collaborative Data Visualization（CoDA：面向协同数据可视化的智能体系统）

[04:21 ] 🧐 SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?（SurveyBench：大模型（智能体）写学术综述能有多靠谱？）

[05:06 ] 🔧 REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration（REPAIR：渐进式自适应干预与再融合的鲁棒编辑框架）

[05:53 ] 🔍 OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features（OrtSAE：正交稀疏自编码器揭示原子级特征）

[06:38 ] 🔍 FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents（FocusAgent：轻量级检索器为网页智能体精简冗长上下文的简易高效方案）

[07:14 ] 🎯 Improving GUI Grounding with Explicit Position-to-Coordinate Mapping（基于显式位置-坐标映射的GUI定位改进方法）

[08:05 ] 📏 LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning（LSPO：面向大模型推理的基于长度感知的动态采样策略优化）

[08:45 ] 🤖 WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents（WAInjectBench：面向网页智能体的提示注入攻防基准评测）

[09:19 ] 🍱 Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs（无需配对偏好图像即可免费对齐文本到图像扩散模型）

[09:54 ] 🎯 LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models（LEAML：面向多模态大模型的标签高效分布外视觉任务适配）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

2025.10.09 | Ming-UniVision统一视觉词表；KV-Cache直连让大模型秒聊

2025-10-0911:46

2025.10.08 | TaTToo用外挂代码干翻大模型；4B小模型32步逼近闭源巨头

2025-10-0811:16

2025.10.07 | 论文秒变演讲；Video-LMM后训练突破

2025-10-0711:02

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025-10-0611:02

【周末特辑】10月第1周最火AI论文 | Transformer长出大脑的壳；LongLive把长视频做成直播

2025-10-0512:14

2025.10.03 | LongCodeZip删得快准；迈向分钟级高质量视频生成

2025-10-0311:19

2025.10.02 | MCTS破局RLVR瓶颈；GEM开源智能体训练场

2025-10-0210:32

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025-09-2611:17

2025.09.25 | 视频模型零样本全能；隐式思维链省token提效

2025-09-2507:59

2025.09.24 | 阿语OCR刷新指标；无标注RL涨分

2025-09-2411:36

2025.09.23 | 少78条示范让AI飙73.5%；免掩膜视频插主体超Pika

2025-09-2311:18

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025-09-2209:35

【周末特辑】9月第4周最火AI论文 | OmniWorld打造4D数据工厂；WebWeaver让AI边搜边写

2025-09-2013:21

00:00

1.0x

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

#box-pro-ellipsis-176032387571015{-webkit-line-clamp:2;}2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力